本文在我们的O1复制旅程中介绍了一种先锋人工智能研究方法。回应宣布OpenAI开创性的O1模型,我们开始进行透明的实时探索,以复制其功能,同时重新构想进行和交流AI研究的过程。我们的方法论解决了现代AI研究中的关键挑战,包括延长基于团队的项目的孤立性,延迟的信息共享以及缺乏对各种贡献的认可。通过提供我们的复制工作的全面,实时的文档,包括成功和失败,我们旨在促进开放科学,加速集体进步,并为AI驱动的科学发现奠定基础。我们的研究进度报告与传统的研究论文有很大不同,在整个研究过程中提供了连续的更新,完整的过程透明度和积极的社区参与。从技术上讲,我们提出了“旅程学习”范式,该范式不仅鼓励模型学习快捷方式,还鼓励学习完整的探索过程,包括试验和错误,反思和回溯。只有327个培训样本,而没有任何其他技巧,旅程在数学数据集上学习的经验超过8%,表明其极其强大的潜力。我们认为这是我们成功解码的O1技术的最关键组成部分。我们共享宝贵的资源,包括技术假设和见解,认知探索图,定制开发的工具等,网址为https://github.com/gair-nlp/o1-journey。
主要关键词
![arxiv:2410.18982v1 [CS.AI] 2024年10月8日PDF文件第1页](/bimg/b/bd3aac47dfdf68b89d17241df28083530500b9c3.webp)
![arxiv:2410.18982v1 [CS.AI] 2024年10月8日PDF文件第2页](/bimg/6/67071bc14ea94e30f7e5821108626fe3e10f38c4.webp)
![arxiv:2410.18982v1 [CS.AI] 2024年10月8日PDF文件第3页](/bimg/0/07c0d6682ac71f5482beebfea6340d4790cd97e9.webp)
![arxiv:2410.18982v1 [CS.AI] 2024年10月8日PDF文件第4页](/bimg/a/a3377a85d7d2a25046198dda7648ce99a06a1487.webp)
![arxiv:2410.18982v1 [CS.AI] 2024年10月8日PDF文件第5页](/bimg/0/0df91b97d928601e45ca1802fb69c53090d1b7e3.webp)
